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异 构 多 核 计 算 系 统 的 Codelet 任务 调度 策略 
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摘 要 : Codelet 数据 流 计 算 模型 在 处 理 大 规模 并 行 计算 任务 时 效果 显著 ， 但 该 模型 目前 缺少 在 异 构 多 核 环 境 中 的 任务 
调度 策略 。 因 此 ， 提 出 了 一 种 在 异 构 多 核 环 境 下 基于 蚁 群 算法 的 Codelet 任务 调度 策略 。 该 调度 策略 将 启发 式 算 法 与 
蚁 群 算法 相 融 合 , 在 发 挥 各 自 优 势 的 同时 克服 了 启发 式 算 法 不 能 得 出 最 优 解 的 缺陷 以 及 蚁 群 算法 初始 信息 荐 乏 的 问题 。 
实验 结果 表明 ， 智 能 蚁 群 任务 调度 策略 相 比 Codelet 运行 时 系统 中 原生 的 动态 调度 和 静态 调度 策略 具有 更 高 的 执行 效 
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Codelet task sched uling policy of heterogeneous multicore computing system 


Pei Songwen'?, Lyu Chunlong!, Ning Zhong?, Gu Chunhua! 
(1.School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology, Shanghai 200093, 
China; 2. School of Management, Fudan University, Shanghai 200433, China) 


Abstract: Codelet dataflow model has significant effects on gaining high performance of computing large-scale parallel tasks, 


but the model currently lacks scheduling policy in heterogeneous multi-core environment. Regarding to this issue, this paper 


proposed a Codelet task scheduling strategy by fusing ant colony algorithm with a heuristic approach in heterogeneous multicore 
environment. It had both advantages of the heuristic algorithm and ant colony algorithm, and it overcomed both defects of the 
heuristic algorithm that could not derive an optimal solution and the defects of the ant colony algorithm that was lack of the 
initial information. The experimental result shows, the smart ant colony scheduling policy is much more efficient than the native 


dynamic and static scheduling policies in the runtime system implementation of the Codelet model. 
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多 核 处 理 器 已 经 成 为 主流 计算 机 的 重要 计算 部 件 ， 改 变 了 
以 往 处 理 器 仅 支 持 少量 计算 单元 的 应 用 环境 。 随 着 并 行 执行 模 

数据 流 计算 模型 是 由 麻 省 理工 学 院 的 Dennis[ 提 出 ， 被 认 ”型 的 不 断 完善 , Suettlerlein [9 提出 了 Codelet 模型 ， 并 基于 此 模 
为 是 冯 诺 依 曼 控制 流 计算 机 在 并 行 化 计算 方向 上 的 突破 性 贡献 。 型 ， 提 出 了 对 应 的 运行 时 系统 DARTS. Codelet 模型 是 一 种 细 
数据 流 计算 模型 执行 指令 的 方式 与 传统 的 冯 氏 计算 机 基于 指令 ”粒度 的 、 由 事件 驱动 的 、 混 合 控制 流 /数据 流 的 并 行 执行 模型 四。 
控制 流 的 方法 不 同 ， 它 采用 有 向 图 描述 数据 流 模型 ， 指 令 所 需 。 Codelet 模型 由 基本 执行 单位 Codelet 和 线程 程序 TP (threaded 
的 数据 一 旦 就 绪 即 可 触发 该 执行 ， 具 有 高 度 的 并 行 性 。 数 据 流 procedure) 组 成 。 其 中 ，Codelet 主要 负责 存储 执行 指令 ,TP 作 
计算 模型 充分 发 气 了 程序 内 在 的 数据 并 行 性 ， 使 用 细 粒 度 的 为 Codelet 的 容器 ， 负 责 输入 、 输 出 及 保存 共享 数据 。DARTS 
行 机 制 克 服 传统 控制 流 模型 的 局 限 性 。 为 了 提高 多 核 系统 的 执 ”作为 Codelet 模型 的 运行 时 系统 ， 负 责 多 核 、 众 核 上 的 任务 调 
行 效率 并 解决 数据 流 模 型 细 粒 度 所 引起 的 问题 ， 混 合 数据 流 计 ” 度 、 负 载 平 衡 、 内 存 管 理 和 功 耗 管理 等 。 本 文 使 用 DARTS 实 
算 模型 应 运 而 生 。 混合 数据 流 模 型 3] 结合 了 数据 流 和 冯 诺 依 曼 。” 现 和 模拟 任务 在 Codelet 模型 中 的 执行 过 程 。 
空 制 流 各 自 的 优势 ， 最 大 化 利用 硬件 资源 的 同时 ， 还 能 降低 系 多 核 处 理 器 又 分 为 同 构 多 核 和 异 构 多 核 两 种 类 型 。Kumar 
统 功 耗 。Codelet 模型 就 是 一 种 重要 的 混合 数据 流 计算 模型 。 等 人 名 指出 ， 同 构 多 核 存在 一 定 的 局 限 性 ， 如 果 在 芯片 上 集成 
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多 个 简单 的 内 核 ，} 


核 处 理 器 除了 
的 处 理 器 核心 ， 能 够 力 


器 系统 的 发 展 受 到 广泛 的 关注 并 将 成 为 未 来 处 理 


异 构 多 核 处 至 
器 的 发 展 方向 ， 然 而 Codelet Aij 


造成 能 耗 和 芯片 冷却 的 负担 。 而 异 构 多 
成 了 一 些 特定 功能 
快 程序 的 执行 速度 并 降低 系统 功 耗 中。 
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IV 1| 
KRX, €i 异 构 多 核 计 算 系统 的 Codelet 任务 调度 策略 


本 文采 用 CDG (Codelet graph) 模拟 真实 机 器 执行 数据 流 
计算 任务 时 的 Codelet 调度 场景 .如 图 1 所 示 ,CDG 由 Codelet、 
token 和 event 三 部 分 组 成 。Codelet 是 基本 的 执行 单位 ，token 


环境 下 的 任务 i 

执行 模型 也 
策略 0 123 Y 
行 任务 的 执行 时 间 
蚁 群 任务 调度 策 
Codelet 模型 ， 将 各 Codelet 4j fi 


行 单元 ， 从 而 完 
^f 


王 务 在 模型 中 的 调 集中 的 有 向 无 环 图 


程 并 与 DARTS H 


模拟 仿真 实验 过 


1 ”Codelet 模型 与 蚁 群 算法 


则 度 策略 的 有 效 性 。 


m» 


比 ， 以 验证 新 


昌 流 计算 模型 缺乏 在 异 构 计算 


最 根本 的 问题 ， 而 调度 
E T EA EUG BUB IU RUDI, Jg T ubt 
Ei EJ Codelet 的 智能 


使 其 适用 于 异 
L—4 


FP 自 带 的 两 种 调度 策略 进行 对 


CodeletCodelet 是 Codelet 数据 流 计算 模型 的 基本 执行 单元 ， 


一 系列 机 器 指令 组 成 ， 这 些 机 器 指令 可 看 


5 式 的 计算 单元 。 在 Codelet 程序 执行 模型 


本 的 调度 单位 , 任务 被 划分 成 许多 相连 通 的 Codelet。 与 传统 任 


履 是 单一 的 、 非 抢 
H, Codelet 是 最 基 


务 的 并 行 机 制 不 同 , Codelet 的 执行 语义 是 当 且 仅 当 所 有 需要 的 
资源 可 用 时 ，Codelet 才 会 被 激活 。 然 后 ，Codelet 将 根据 调度 


策略 分 配给 对 应 的 


以 并 行 执行 。 


1.1 DARTS 


多 个 激活 的 Codelet 可 


表示 Codelet 执行 完毕 后 发 出 的 信号 ，event 表示 两 个 Codelet 
间 的 依赖 关系 。CDG 可 以 明确 地 表示 出 Codelet 的 状态 与 
Codelet 之 间 的 依赖 关系 。 


图 1 CDG (Codelet graph) 


CDG 采用 有 向 无 环 图 G=<V, E> 描述 Codelet 数据 流 计 算 
模型 。Codelet 的 节点 构成 顶点 集合 V={n }，ie[0,N-1],N 是 
Codelet 任务 数 ; UR E={ e,,}, i, je[0, N-1], e, ;表示 Codelet 
任务 n 与 nj 之 间 的 数据 依赖 关系 。 如 表 1 所 示 ， 本 文 定义 了 
Codelet 模型 中 的 数据 结构 和 调度 相关 的 参数 。 

表 1 符号 和 参数 定义 


DARTS (delaware runtime system) [9 是 实现 Codelet 数据 流 


计算 模型 的 运行 时 系统 ， 其 主要 作用 
资源 来 加 载 和 执行 Codelet。DARTS 运行 时 
R: 线程 程序 调度 器 (TPS)、Codelet i 
和 出 口 Codelet。 其 中 ，TPS 3:3 
载 均衡 , 并 在 空 
丸 行 对 应 执行 单元 


St 


昌 调 度 策 略 分 配 硬件 


四 种 对 象 类 型 组 


上 已 激活 的 Codelet; 


用 户 交 互 的 接 用 户 设 置 Codelet 
Codelet 是 任务 


该 Codelet 亦 


的 Codelet 调 


策略 , E DARTS H 


多 个 CDS, 调 


处 理 单元 。 


12 ”调度 模型 
在 Codelet Zij 
在 机 器 上 运行 


度 器 (CDS)、 抽 象 机 配置 
线程 程序 和 Codelet 的 负 
执行 已 激活 的 Codelet; CDS 的 任务 主要 是 
象 机 配置 是 运行 时 与 
模型 的 硬件 环境 ， 出 
odelet 模型 所 执行 的 最 后 一 个 Codelet， 
。 本 文 仅 考虑 单一 集群 下 
h, 一 个 集群 下 有 一 个 TPS 和 
度 器 的 数量 一 般 等 于 或 小 于 实际 处 理 器 所 拥有 的 


符号 定义 
prec(i) n, 的 直接 前 驱 集合 
succ(i) n, 的 直接 后 继 集合 
C, j) n, 和 nj 之 间 数 据 传输 时 间 
解 的 构造 过 程 中 ， 调 度 步骤 4 的 就 绪 任 务 集合 ， 包 括 所 有 
allow(t) 
前 驱 均 已 接受 调度 的 Codelet 任务 
FT(i) Codelet 任务 n 的 结束 时 刻 
ETC(i, j) 任务 n, 在 调度 器 p, 上 的 执行 时 间 
s 的 调度 长 度 ; MK(s) = max (FT) ; 异 构 CDG 调度 的 
MK(s) med 
优化 目标 为 : min(MK(s)) 
s Codelet 节点 的 调度 序列 (调度 方案 ) 
13 蚁 群 算法 


蚁 和 群 算法 Cant colony optimization Algorithm, ACO) I5:14 
最 早 由 意大利 学 者 Marco Dorigo 等 人 在 20 世纪 90 年 代 提 出 ， 
是 一 种 从 群体 智能 演化 而 来 的 解决 大 规模 组 合 优化 问题 的 算法 。 
蚂蚁 通过 信息 素 传递 信息 ， 如 果 某 个 路 径 较 短 ， 则 单位 时 间 内 


的 调度 方案 .Codelet 在 依赖 关 


系 的 约束 下 ， 


H. BGE m 是 某 个 计算 


尽 可 能 地 缩短 任务 执行 时 


任务 调度 的 目标 是 寻找 可 


通过 的 蚂蚁 数量 相对 多 ， 在 该 路 径 上 残留 的 信息 素 就 越 多 ， 后 


续 蚂 蚁 将 有 倾向 地 选择 该 路 径 通 行 。 蚁 群 算法 正 是 利用 了 这 


H 


原理 ， 通 过 这 种 积极 的 反馈 ， 使 其 具有 强大 的 全 局 趋同 


任务 中 Codelet 节点 的 数量 ，n 是 某 个 集群 /多 核 处 理 器 中 计算 


单元 (对 应 调 


E 务 即 是 将 m 个 Codelet 分 
配给 n 个 调度 器 。 每 个 Codelet 的 计算 都 会 独占 调度 器 直到 该 
Codelet 的 计算 任 


Eo 


群 算法 以 信息 素 为 载体 ， 具 有 发 现 较 优 解 的 能 力 ， 可 进行 大 范 
抽 的 全 局 搜索 ， 同 时 具备 一 定 的 鲁 棒 性 和 潜在 的 并 行 性 。 蚁 群 
算法 已 经 在 组 合 优化 、 函数 优化 、 网 络 路 由 、 机 器 人 路 径 规划 、 
数据 挖掘 等 领域 获得 了 广泛 的 应 用 ， 并 取得 了 较 好 的 效果 。 
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录用 稿 


文 对 蚁 群 算法 进行 改进 ， 使 其 适用 于 


型 的 任务 调度 。 


2 智能 蚁 群 任务 调度 策略 


本 文 面向 异 构 多 核 的 Codelet 计算 环境 ， 
HEFT(heterogeneous earliest-finish-time) 03 和 蚁 群 算法 提出 了 
一 种 智能 蚁 群 任务 调度 策略 SACTS (smart ant colony task 
scheduling). HEFT 算法 会 在 每 个 步骤 中 选择 相距 出 
远 的 Codelet 计算 节点 , 并 将 选择 的 Codelet 分 配给 异 构 计算 单 
元 执行 。 智 能 蚁 群 任务 调度 策略 会 根据 HEFT 算法 计算 出 每 个 


异 构 环境 下 的 Codelet 


模 


融合 启发 式 算法 
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24 参数 定义 
如 表 2 所 示 ， 本 文 定义 了 智能 蚁 群 任务 调度 策略 所 使 用 的 


: 异 构 多 核 计算 系 统 的 fd dea E 


D. 


度 策 略 


节点 最 


Codelet 计算 任务 的 静态 优先 级 ， 优 先 级 越 高 ， 相 应 的 Codelet 
就 需要 越 早 被 调度 执行 。 智 能 蚁 群 任务 调度 策略 将 各 个 Codelet 


的 静态 优先 级 引入 到 蚁 群 算法 中 作为 调度 Codelet 计算 全 


重要 依据 。 


图 2 展示 了 本 文 提出 的 智能 蚁 群 任务 调度 策略 的 流程 。 
能 蚁 群 任务 调度 策略 的 具体 执行 步骤 


如 下 :首先 导入 CDG 


E 务 的 


E 


多 


数据 传输 的 时 间 开 销 C. 以 及 任务 执行 开销 ETC; 名 根据 HEFT 


算法 计算 出 每 个 Codelet 节点 的 静态 优 儿 
Codelet n... 开始 节点 出 发 ， 根 据 动 态 状 态 转移 规则 选择 下 一 
能 最 早 执 


start 


xi 


HEER Codelet 节点 ; @ 将 选择 的 Codelet 节点 分 配给 


E rank : @ 蚂 蚁 从 


行 完成 的 调度 器 (计算 单元 ); @ 判 断 该 昌 蚁 是 否 遍历 完 所 有 的 


Codelet 节点 ， 如 果 是 ， 则 进行 n s 


下 一 个 Codelet 节点 ;加 判断 所 有 蚂蚁 是 


如 果 都 完成 忆 
进行 下 一 轮 遍 
子 ; @ 判 断 是 否 达 到 最 大 迭代 次 数 ， 
MAKE P HEIER. 


@| 导入 STG、C 和 ETC 


v 
根据 HEFT 算 法 ， 计 
人 @@)| 算 Codelet 结 点 静态 优 
先 级 


v 


迭代 次 数 +1 


记录 当前 迭代 的 最 优 
O 解 ， 并 且 更 新 动态 因子 


1 


否 达 到 最 大 适 介 
次 数 


输出 最 优 解 


， 则 进行 全 局 信息 素 更 新 ， 
@ 记 录 本 次 从 代 计算 的 最 优 解 并 更 新 动态 因 


了 是 © 


如 果 是 则 输出 最 优 解 ， 


蚂蚁 从 Codelet 开 始 结 点 
出 发 


— — 
根据 动态 状态 选择 规则 
选择 下 一 个 Codelet 结 点 


一 
将 该 Codelet 结 点 分 配给 
最 早 完成 的 调度 器 


局 部 信息 素 更 新 


所 有 蚂蚁 都 完成 一 
次 遍历 


全 局 信息 素 更 新 


oon 


图 2 智能 蚁 群 任务 调度 策略 流程 


poa 


不 
Li 


^ 


参数 和 初始 化 值 。 
x2 参数 和 初始 化 值 
参数 参数 的 含义 初始 化 值 
m 蚂蚁 数量 50 
n 迭代 次 数 200 
To 信息 素 矩 阵 初始 值 0.001 
B Ici A ses A EISE FEE 8 P Ee PE H AK 1.2 
4o 动态 因子 ， 调 节 已 知 信息 利用 和 新 信息 探索 之 间 的 比例 “0.1 
p 局 部 信息 素 挥发 因子 0.1 
p 全 局 信息 素 挥发 因子 0.1 


2.2 构造 调度 序列 的 解 
智能 蚁 群 任务 调度 策略 将 蚁 群 算法 的 某 个 解 s 表示 为 s 
Smo notn not nyal ERORKETAK, ki 
Codelet 任务 节点 添加 到 s* 队列 中 ，s 队列 满 ， 则 表示 蚂蚁 完成 
一 次 遍历 ， 蚂 蚁 移动 的 路 径 即 Codelet 的 某 个 调度 序列 。 智 


了 


能 蚁 群 任务 调度 策略 执行 过 程 中 依赖 s 队列 和 allow 集合 。 


s [A 


列 依次 记录 了 所 有 已 经 被 调度 的 Codelet 任务 节点 ; 初始 化 时 
所 有 的 节点 均 未 被 调度 ，s 队列 为 空 。allow(t) 表示 在 选择 第 / 


个 Codelet 任务 节点 时 ， 可 供 选择 的 Codelet 任务 节点 集合 


; 初 


台 化 时 ， allow(0) 仅 开始 节点 Codelet n. o 如 算法 1 所 


start 


示 ， 构 造 了 智能 蚁 群 任务 调度 策略 的 解 。 该 算法 循环 N 次 ， 每 
次 会 选择 一 个 Codelet 任务 节点 记录 在 s 队列 中 ， 然 后 将 该 
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行 完 成 的 时 间 。 当 s BACH 


E 务 节点 分 配给 最 早 执 行 完 成 的 调度 器 并 且 记 录 其 执 
寸 ,输出 所 有 Codelet 任务 节点 中 最 


大 的 结束 时 间 , 即 解 s 的 调度 长 度 (调度 开销 ), fF s 即 Codelet 


节点 的 调度 序列 。 
算法 1 解 的 构造 

输入 : CDG 图 G 

$i: MK(s) 

1. for each ant k 
2. buildaqueue s ofant path; 
3. builda queue Qllow of Codelets to be chosen; 
4. t=0; 
5. add Codelet n „„ to allow(t) ; 
6. whilet « N do 


/通过 动态 转移 规则 从 allow) 中 选择 下 一 个 调度 的 Codelet 


7. 


choose Codelet n from allow(t) by dynamic rule; 


/选择 能 最 早 执行 完成 Codelet 的 调度 器 〈 计 算 单 元 ) 


8. 
9. 


10. 


11. 


choose a scheduler to execute Codelet n 
record FT of Codelet n; 

add the Codeletn to s; 

t=t+1; 


update allow(t) > 
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13. end while 
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[rG. DIG, DY 


if w € allow(i) 


14. MKG)- max (FTO); De 25 Ip win, w]e (5) 
0, otherwise 
15.end for 
23 启发 式 信 息 定义 2.5 信息 素 更 新 
在 智能 蚁 群 任务 调度 策略 中 ， 为 蚂蚁 的 调度 操作 提供 启 在 构造 解 的 过 程 中 ， 每 一 只 蚂蚁 通过 局 部 更 新 规则 对 自己 
发 式 知 识 ， 能 促使 蚁 群 更 快 发 现 较 优 解 或 最 优 解 ， 减 少 求解 的 。” ”选择 的 边 进行 局 部 信息 素 更 新 。 在 一 次 迭代 中 ， 当 所 有 的 蚂蚁 
盲目 性 。 智 能 蚁 群 任务 调度 策略 将 HEFT 算法 中 使 用 的 启发 式 ”都 完成 了 解 的 构造 后 ， 再 对 最 佳 路 径 上 的 边 进行 全 局 信息 素 更 
知识 带 入 7 。 在 HEFT 算法 中 ， 距 离 出 口 节点 最 远 的 任务 最 重 ”新 。 
要 , 应 该 先 接受 调度 , 因此 7 可 以 定义 为 Codelet 节点 的 静态 优 2.5.1 局 部 信息 素 更 新 规则 
先 级 yank(n,) ,根据 式 (1) 计 算 。 局 部 信息 素 更 新 的 目的 是 防止 本 轮 迄 代 中 的 后 续 蚂 蚁 得 到 
rank(n)=w,+ max, (c+ rank(n,)) d 相同 的 解 ， Eh 蚂蚁 挥发 当前 调度 对 应 的 信 
| EJ rtn) ， 更 新 公式 为 
其 中 : succ(n;) 是 Codeletn 的 直接 后 继 集合 ，c, ;是 边 (;,j) 的 r(f,n) 2 v(t,n)*0— p) +T * p (6) 
通信 开销 ; w Æ Codeletn 在 调度 器 上 的 平均 计算 开销 。 静 态 25.2 全 局 信息 素 更 新 规则 
UER rank 值 是 通过 向 上 遍历 Codelet 任务 图 递归 求 得 。 对 于 在 一 次 迭代 中 所 有 蚂蚁 完成 解 的 构造 后 ， 对 信息 素 和 矩阵 进 
Codelet n p> X rank 值 根据 式 (2) 求 得 。 行 全 局 更 新 ， 增 加 蚁 群 找到 的 最 优 调度 步骤 上 的 信息 素 ， 更 新 
rank(n,,,) = w,,, D 公式 为 
智能 蚁 群 任务 调度 策略 在 初始 化 时 计算 出 每 个 Codelet 的 rtn) 2 c(t,n) *(01- 9) c Ac(t,n)* p (7) 
rank， 之 后 该 值 作为 所 有 蚂蚁 共有 的 信息 ，yanx 值 越 高， 蚂蚁 E 1 + max(0, MK (old) - MK (new) (1,5) « ghbetier (g) 


选择 该 Codelet 的 概率 越 高 。 
2.4 动态 状态 转移 规则 

蚂蚁 通过 状态 转移 规则 决定 下 一 个 调度 的 Codelet 任务 。 
智能 蚁 群 任务 调度 策略 使 用 动态 伪 随 机 概率 规则 进行 状态 转移 ， 
见 式 (3)。 


n, =arg max ([rG,w)][G, l^) . 


weallow(i) 


if 4g<go (3) 


riw 为 (i,w) 边 上 的 信息 素 强 度 ，z(i,w) 值 越 大 ， 蚂 蚁 选 
FE Codelet n, 的 概率 就 越 大 。 nii, w) 即 为 pn,) 根据 式 (1)(2) 计 算 


在 本 文 提 出 的 动态 伪 随 机 概率 规则 中 ， 通 过 调整 动态 因子 
qo 来 控制 收敛 速度 。g, 值 越 小 , 按照 式 (4) 随 机 性 选择 的 概率 就 
越 大 ， 蚁 群 选择 的 多 样 


min(MK (old), MK (new)) 
式 (8) 中 MK (old) 是 本 次 迭代 开始 前 算法 得 到 的 最 优 解 ， 
MK (new) ERRIRE BI I oe fi gbbetter 是 其 中 的 更 优 者 。 


3 ”实验 与 分 析 


3.1 实验 环境 

实验 环境 配置 为 Intel Core i7-6700HQ CPU, Nvidia 
GTX1080Ti GPU, 16 GB DDR4 主 存 ， 每 个 核 包含 128 KB 的 一 
级 数据 缓存 和 指令 缓存 ，1 MB 的 二 级 缓存 和 6 MB 的 三 级 组 
存 ，CentOS-7-x86_64 操作 系统 。 使 用 的 运行 时 系统 是 基于 
Codelet 模型 设计 的 DARTS。 为 了 评价 智能 蚁 群 任务 调度 策略 
的 性 能 ， 实 验 采 用 标准 任务 图 集 STG (standard task graph). 
STG09 是 一 种 评估 多 处 理 器 调度 算法 的 基准 程序 。 本 文 在 STG 


生 会 越 好 ;反之 ，d 值 越 大 ， 蚂 蚁 选择 
allow(i) 集合 中 [rG, jy], 站] 值 最 高 的 Codelet n, 的 概率 就 越 
大 ， 收 敛 速 度 会 加 快 。 因 此 在 智能 蚁 群 任务 调度 策略 初期 设 定 
较 小 的 qo 值 增 加 蚊 群 选择 的 多 样 性 ， INE d 
增长 将 gq 值 调 整 为 较 大 的 值 可 以 加 快 收敛 速度 。 根 据 式 (4) qo 
值 计算 可 得 。 


( max — min) *I 
Go — win (4) 


其 中 : / 表示 当前 和 迭代 次 数 ， 半 表示 最 大 迭代 次 数 。 

根据 式 (3)， 昌 蚊 在 每 次 的 状态 转移 时 都 会 生成 一 个 [0,H] 之 
间 的 随机 数 9 o 蚂蚁 选择 allow(i) 集合 中 
[cG, 站 [wi, p 值 最 高 的 Codeletn,; 反之, 蚂蚁 根据 式 (5) 计 算 
allow(i) 中 每 个 Codelet 任 务 被 选择 的 概率 ,进行 随机 概率 选择 。 
和 新 信 之 间 的 比例 。 


E qq, 


D EAS cei AA] 


图 结构 不 变 的 基础 上 ， 随 机 生成 各 节点 在 不 同调 度 器 上 的 执行 
时 间 以 及 Codelet 节点 在 调度 器 之 间 的 数据 通信 时 间 。 
3.2 ”实验 数据 及 结果 分 析 

实验 使 用 了 包含 300、500、750、1 000、1 250、1 500 个 
节点 的 随机 STG 以 及 基于 实际 应 用 生成 的 STG: Robot 
Control(88 个 节点 )、Sparse Matrix Solver(96 个 节点 )、SPEC 
fpppp334 个 节点 )。 在 异 构 多 核 调 度 器 环境 中 ， 比 较 了 DARTS 
中 两 种 适用 于 Codelet 模型 的 调度 策略 〈( 静 态 策略 static 
policy) 、 动 态 策略 (dynamic policy) ©) 和 智能 蚁 群 任务 调度 策 
略 的 任务 执行 时 间 。 其 中 ， 静 态 策略 采用 轮 询 法 将 已 激活 的 
Codelet 分 配给 指定 的 调度 器 。 动 态 策略 将 所 有 可 执行 的 Codelet 
存放 在 一 个 队列 中 ， 每 当 有 调度 器 空 闪 时 ， 都 可 单独 访问 该 队 
列 并 获取 Codelet， 因 此 动态 策略 适用 于 非 对 称 的 应 用 程序 。 
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表 3 所 示 是 三 种 调度 策略 执行 包含 不 同 节 点 的 随机 STG 所 


需 的 时 间 。SACTS Policy 的 执行 时 间 相 比 于 


Static Policy “减少 


了 34.7%~47.6%，SACTS Policy 的 执行 时 间 相 比 于 Dynamic 


Policy "Jib f 5.7%~23.5%. 


表 3 随机 STG 的 执行 时 间 


] 


Codelet 数量 ^ Static Policy^ Dynamic Policy ^ 


SACTS Policy 


300 148.8 103.0 97.2 

500 251.5 174.2 152.3 

750 377.4 264. 1 225. T 

1000 668. 2 468. 1 382.6 

1250 853.0 584.6 441.2 

1500 1200. 1 181.5 635.8 

图 3 所 示 是 智能 蚁 群 任务 调度 策略 SACTS 相 比 于 静态 策 
各 和 动态 策略 的 执行 时 间 加 速 比 。 加 速 比 的 计算 公式 为 : 某 个 
调度 策略 执行 任务 时 间 /SACTS 执行 任务 时 间 。 由 图 可 知 ， 
SACTS 相 比 Static Policy 和 Dynamic Policy 的 执行 时 间 加 速 比 
均 大 于 1， 这 说 明 SACTS HF DARTS 运行 时 系统 原生 的 


Static Policy 和 Dynamic Policy。 其 中 SACTS 相 比 Static 


的 执行 时 间 加 速 比 在 1.53~1.90, 相对 于 Dyn 
时 间 加 速 比 在 1.06~1.31。 随 着 Codelet 任务 
智能 蚁 群 任务 调度 策略 相对 于 静态 策略 和 动 


Policy 
amic Policy 的 执行 
节点 数量 的 增加 ， 

态 策略 的 执行 时 间 


加 速 比 总 体 呈 现 递增 状态 ， 这 说 明 随 着 Codelet 任务 节点 规模 


的 扩大 时 ， 智 能 蚁 群 任务 调度 策略 的 执行 效率 也 在 不 断 提高 。 
2 OSACTS-Static mSACTS-Dynamic 
1.5 4 
"ER 
0.5 4 
0 T T 1 
300 500 750 1000 1250 1500 
Codelet 节 点 数量 
图 3 执行 时 间 加 速 比 
图 4 所 示 是 三 种 调度 策略 执行 基于 实际 应 用 生成 的 STG 的 


执行 时 间 。 对 于 robot, fi) 
减少 了 24.7 s, L5 Dynamic 
使 用 


Policy 减少 了 7. 


SACTS 的 执行 时 间 比 StaticPolicy 


1 s; 对 于 sparse; 


SACTS 的 执行 时 间 比 Static Policy 减少 了 27.3 s， 比 


Dynamic Policy 减少 了 8.4s; 对 于 fpppp， 使 用 SACTS 的 执行 


时 间 


Ln 


EÉ Static Policy 减少 了 67.7 


s, L5 Dynamic Policy 减少 了 


据 传输 时 间 为 


调度 器 的 执行 时 间 为 [0,100] 
区 间 的 随机 变量 。 


[0,10] 


区 间 的 随机 变量 ， 调 度 器 之 间 的 
对 于 Codelet 数量 为 


$， 弄 构 多 核 计算 系统 的 Codele 


88(robot)、 96(sparse)、 334(fpppp). 300. 500, 750、 1 000, 1250、 


1500 的 STG, SACTS(ÓS — $635 49)E 


E HEFT 的 执行 时 间 减 少 了 


10%~23.8%,SACTS 比 HEFT 的 执行 时 间 减 少 了 11.2%~26.3%。 


SACTS 执行 时 


过 程 中 都 会 增加 最 优 路 径 上 的 


H 


以 得 到 较 优 
1 次 后 得 到 最 


解 或 最 优 解 。SACT 
优 调度 序列 的 执行 


HEFT 算法 中 


| 间 比 HEFT 少 的 主要 原 


El 


K| zé 


的 启发 式 知识 可 以 促使 收 群 更 | 


QUAE, JP] 
策略 的 性 能 
缺点 。 


求 
T HEFT, 


解 的 


性 。 


OStatic 


E Dynamic 


音 息 素 ， 通 过 这 种 积极 的 了 
SE — $e XR 4X) RII 
对 间 少 于 HEFT 


实验 结果 表明 智能 蚊 
- 且 改 善 了 蚁 群 算法 初始 


D SACTS 


天 发 现 较 优 


蚁 群 在 每 一 次 迭代 
FE 反馈 


蚊 群 在 迭代 


主要 原 


因 


up 3k 


是 


解 或 最 


20.5s。 实 验 结果 表明 ,智能 蚁 群 任务 调度 策 


时 ， 也 具有 相当 好 的 执行 效率 。 
如 表 4 所 示 , HEFT 
算 环 境 下 , 对 不 同 STG 3 


一 轮 友 代 ) 是 指 蚁 群 在 迭代 1 次 后 得 到 最 优 
是 指 蚁 群 在 迭代 200 次 后 得 到 的 最 优 调度 序 


行 调度 的 执行 时 间 。 其 中 , SACTS( 第 


略 在 处 理 


关 际 应 用 


以 及 SACTS 在 异 构 多 核 的 Codelet 计 


调度 序列 ，SACTS 
列 。 Codelet 任务 在 


& 
robot sparse fpppp 
图 4 STG 的 执行 时 间 
表 4 STG 的 执行 时 间 
Codelet 数量 ^ HEFT SACTS( 第 一 轮 迭 代 ) SACTS Policy 
88(robot) 1993 1683 1557 
96(sparse) 1870 1651 1584 
334(fpppp) 6499 5263 5238 
300 7117 5342 5239 
500 11588 8834 8704 
750 17208 14196 14018 
1000 22454 19273 19027 
1250 24585 22133 21826 
1500 31915 27573 27240 
4 ”结束 语 
随 着 Codelet 数据 流 模型 以 及 异 构 多 核 系统 的 发 展 ， 
Codelet 任务 调度 策略 成 为 制约 异 构 Codelet 数据 流 模 型 执行 效 
率 的 重要 因素 之 一 。 本 文 在 异 构 多 核 环境 下 , 研究 了 Codelet 数 
据 流 模型 的 调度 策略 ， 并 提出 了 智能 蚁 群 任务 调度 策略 。 智 能 
蚁 群 任 务 调度 策略 将 启发 式 算法 HEFT02 和 改进 的 蚁 群 算法 相 
融合 ， 提 高 了 模型 的 执行 效率 ， 缩 短 了 任务 执行 时 间 。 通 过 实 
验证 明 ， 在 解决 大 规模 Codelet 任务 调度 问题 时 ， 智 能 蚁 群 任 
务 调度 策略 与 Codelet 运行 时 系统 中 的 原生 动态 调度 和 静态 调 
度 策 略 相 比 具 有 更 高 的 效率 。 随 着 性 能 和 速度 的 提高 ， 处 理 器 
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的 能 耗 和 散热 问题 在 设计 高 性 能 系统 时 成 为 关键 的 挑战 。 在 
Codelet 数据 流 模 型 中 , 如 何 有 效 的 降低 能 耗 以 及 均衡 处 理 器 核 
心 上 的 能 耗 ， 防 止 处 理 器 上 出 现 局 部 过 热 ， 是 未 来 工作 的 研究 
重点 。 
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